有关「Datasets」的其他数据集介绍系列:「Datasets」
About Khan Academy Data
Introduction
Khan Academy Knowledge Structure
存在重复项,例如:
- 「Computer science」 下的 「Hour of Code」 中的内容会重定位到同级的「 Computer science」 的内容中。
- 「Math by subject」 与 「Math by grade」存在交集。
Data structure
数据一共为 4 个 .json
文件,以及相关视频 Video 与相关图片 Picture。
- content.json
- 包含知识点逻辑结构信息
- 包含内容种类信息(主要用于指向对应的题目类型)
- practice.json
- 若数据在
content.json
中content_kind
字段为 Exercise ,则会进一步根据practice
\- 中的唯一
practice_id
对应到practice.json
当中。 - 包含了试题题面文本信息以及图像信息
- 包含了试题答案文本信息以及图像信息
- 若数据在
- article.json
- 若数据在
content.json
中content_kind
字段为 Article ,则会进一步根据唯一的article_url
对应到article.json
当中。
- 若数据在
- code.json
- 属于可汗学院中专门的编程题,但是其实重定向后就是对应种类为 Scratchpad 内容,简而言之,就是属于 Scratchpad 的一小部分内容,但不是 Scratchpad 的全部内容。
- 另外,若数据在
content.json
中content_kind
字段为 Scratchpad ,并不存在唯一的字段对应到code.json
当中,即不存在直接联系。
Logical Structure
content.json
practice.json
Different types of content
Exercise
Picture
Total 14839 items = 4128 .png
+ 10709 .svg
(Exists duplicate items)
Video
Article
Scratchpad
Data Analysis
针对 Domain 为「Math by subject」
各个「subject」的 Video 数量分布图
各个「subject」的 Exercise 数量分布图
各个「subject」的 「child_subject」 数量分布图
各个「subject」的 「slug」 数量分布图